Progressi nel riconoscimento di identità ed emozioni nelle voci umane

LORENZO L. BORGIA

NOTE E NOTIZIE - Anno XIX – 29 ottobre 2022.

Testi pubblicati sul sito www.brainmindlife.org della Società Nazionale di Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione “note e notizie” presenta settimanalmente lavori neuroscientifici selezionati fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione Scientifica della Società.

[Tipologia del testo: RECENSIONE/AGGIORNAMENTO]

Il mistero della voce è suggestivo: pensiamo che

fin dal grembo di nostra madre impariamo a

riconoscere la sua voce e quella del papà…

[Papa Francesco]

La voce dell’uomo è l’apologia della musica.

[Friedrich Nietzsche]

Nulla altera le qualità materiali della voce

quanto il fatto di contenere il pensiero.

[Marcel Proust]

Due nuovi studi di applicazione tecnologica delle conoscenze neuroscientifiche sul riconoscimento dell’identità dalla voce e, soprattutto, dell’affettività e delle emozioni che esprime, hanno suggerito questo aggiornamento che, non potendo prescindere dall’attualità della nuova acquisizione da me proposta nel gennaio di quest’anno, sarà preceduto dalla riproposizione del testo di quella recensione[1]. Ho ritenuto opportuno riprodurre anche le tre citazioni di esergo del Papa, di Nietzsche e di Proust perché sono più che mai aderenti ai nuovi contenuti. La realizzazione di una coclea artificiale ispirata alla neurobiologia di quella naturale e basata su memristors da parte di Lingli Cheng e colleghi, e soprattutto lo sviluppo da parte di Dongxu Yang di un sistema che consente a un Robot di riconoscere le emozioni degli interlocutori dalla voce, saranno più avanti oggetto di recensione, ma ora ripartiamo da un ricordo che ci introduce all’argomento attraverso l’esperienza vissuta.

Eravamo in una delle librerie più frequentate di Firenze per la sua attività convegnistica, il presidente della nostra società scientifica ed io, quando sentimmo distintamente alle nostre spalle pronunciare in inglese con accento newyorkese una breve frase con una timbrica vocale che ci era cara e familiare. Ci siamo guardati negli occhi, sospesi per un istante – e dopo ci siamo comunicati che nella nostra mente sono passati gli stessi ricordi – ma nessuno dei due si è voltato per guardare chi fosse, perché sapevamo che non poteva essere lui, per un’infinità di ragioni o, meglio, per una sola ragione che metteva a tacere tutte le altre: Gerald Edelman era morto il 17 maggio del 2014.

Cercando di razionalizzare, ci siamo detti che gli indici acustici delle frequenze adottati dal nostro cervello per il riconoscimento della voce dell’autore della teoria della selezione dei gruppi neuronici dovevano essere molto simili a quelli appena uditi o che, semplicemente, avevamo una memoria non così finemente discriminata e, dunque, le frequenze timbriche di una laringe di un uomo di mezza età associate alla dinamica fonoarticolatoria tipica dell’accento prosodico di New York, possono averci ingannato. Ma nella vita di tutti i giorni, nella massima parte dei casi e per la maggior parte delle persone, il riconoscimento vocale avviene senza errori, e rappresenta una delle più sorprendenti tra le abilità basate sulla fisiologia percettiva naturale. Introducendo questo argomento così si esprimeva il nostro presidente una decina d’anni or sono:

“La capacità di evocazione della voce umana costituisce uno dei capitoli più suggestivi, affascinanti e complessi del rapporto tra percezione ed esperienza psichica. Ciò che può essere evocato da poche centinaia di millisecondi di stimoli acustici alle giuste frequenze sonore, in alcuni casi sembra avere le dimensioni di un vero e proprio mondo e, molto spesso, attiene ad una tranches de vie in cui l’identità del soggetto della voce ha avuto un ruolo, un peso o un’influenza nella vita affettiva, emotiva, cognitiva o lavorativa di chi ascolta, magari per la frequentazione assidua di un periodo o per veri e propri rapporti di parentela, amicizia o colleganza. È sufficiente un breve ascolto perché si abbia il riconoscimento della voce e la simultanea attualizzazione dei contenuti associati nel nostro cervello: l’udito ha portato il codice dell’identità del parlante nel cuore delle memorie autobiografiche di chi ascolta, dove ha agito come una chiave che ha aperto la sua specifica serratura di contenuti psichici, costituiti da stati funzionali delle reti neuroniche cerebrali.

Il processo di riconoscimento identitario legato alla voce è ordinariamente integrato dalla percezione del tono affettivo-emozionale del parlante, che rivela una particolare efficacia discriminativa quando si tratti di una persona cara o bene conosciuta dall’ascoltatore. Questo aspetto non deve essere sottovalutato perché, se è vero che in generale questa abilità non meraviglia in quanto ha una lunga storia filogenetica, rivelata dalla capacità del cane di riconoscere gli elementi di ostilità all’ascolto vocale svelata da un correlato nel nucleo accumbens, nella realtà umana costituisce un cardine di processi alla base del rapporto psicologico con l’altro, dalla genesi di conflittualità alle manifestazioni di empatia”[2].

Non solo la capacità umana di identificare voci conosciute in vari esperimenti si è mostrata superiore a quella di sofisticati softwares sviluppati sull’analisi spettrografica di sintetizzatori vocali, ma un’abilità simultanea in questo processo del cervello umano è data dalla capacità di riconoscere lo stato affettivo o la particolare emozione che può modulare la parola, ossia quell’atto locutorio che Fernand De Saussure definiva esecuzione individuale della lingua che accomuna i parlanti. Con un brevissimo ascolto anche un bambino è in grado di riconoscere tra tante voci quella di un compagno di scuola, di un’insegnante, di una zia o di una vicina di casa e, anche da una sola parola sapere se è allegra, preoccupata o adirata[3]. Nonostante i numerosi studi condotti per decifrare le basi neurofunzionali di queste abilità e alcuni risultati significativi, il modo in cui il cervello elabora la voce non è stato ancora definito; in particolare, non c’è accordo fra i ricercatori circa il modo esclusivo per la voce o comune ad altri stimoli acustici del processing dei segnali che da una laringe umana giungono all’area 41 di Brodmann della corteccia temporale del ricevente, con la mediazione di orecchio esterno e medio, coclea e vie acustiche.

Un nuovo studio, condotto da Yang Zhang e colleghi, ha identificato un’organizzazione gerarchica di reti corticali dedicate all’elaborazione della voce, che segue un criterio funzionale simile a quello del sistema identificato nella corteccia visiva dei primati per l’elaborazione dei volti. Lo studio qui recensito è di notevole rilievo neuroscientifico perché non indica soltanto correlati neurofunzionali di un processo legato a un particolare canale percettivo, ma fornisce un contributo a quel mosaico di nozioni che sta delineando un modo più generale di organizzazione funzionale del cervello per l’attribuzione di valori di identità e significato a elementi quali i volti e le voci[4].

La voce per gli antichi era metonimia del logos, infatti Plutarco dice che cercare la virtù nelle persone male educate è come cercare la voce nei pesci.

La cultura antica ci aiuta a comprendere quanto la voce sia stata importante nella realtà umana e non solo per l’uso che ne facevano i retori e, a loro imitazione, avvocati, politici e capi militari, ma anche per il ruolo di veicolo sui generis del pensiero, ben distinto dalla parola scritta. Euripide nella gara con Eschilo si vanta che i suoi spettatori avevano imparato a parlare assistendo alle rappresentazioni delle sue opere[5]. Ma il merito non poteva attribuirsi esclusivamente ai testi, perché erano state le voci degli attori a imprimersi nella mente degli ascoltatori, e il registro timbrico degli interpreti era rimasto indelebilmente legato alla calibratura dei pensieri, tanto nel loro senso logico quanto nel loro valore affettivo. Di ciò è ben consapevole William Shakespeare, padre riconosciuto dai contemporanei dell’inglese moderno, non per aver scritto trattati di grammatica, ma per essere stato interpretato dalla valentia delle voci di attori capaci di rendere tutte le sfumature, le sottigliezze, le profondità, i doppi sensi, le intensità dei sentimenti e dei ragionamenti di copioni che sono diventati modello di lingua, pensiero e cultura.

Se Nietzsche valorizzava così tanto le modulazioni della voce da considerarle “apologia della musica”, il grande musicista Richard Strauss, riprendendo la metonimia di senso che nell’attività vocale comprende tutto il linguaggio-pensiero che vi sono connessi, riconosce che la voce umana possa essere il più bello degli strumenti ma, in senso proprio, rimane il più difficile da suonare bene.

Probabilmente, proprio questo intimo rapporto – testimoniato dalla cultura – tra la voce e tanti aspetti differenti della psiche umana, è all’origine di una codifica cerebrale della voce umana tanto efficiente ma altrettanto difficile da decifrare. È ragionevole supporre che il legame fra i caratteri acustici dell’esecuzione locutoria e i suoi valori di senso si sia evoluto con tutto l’encefalo, così da consentire quelle straordinarie prestazioni di riconoscimento di identità e attribuzione di qualità affettivo-emotiva che appartengono alla nostra esperienza quotidiana.

Per indagare in vivo i meccanismi di elaborazione cerebrale dell’informazione uditiva prodotta dall’ascolto della voce umana, Yang Zhang e colleghi hanno registrato segnali elettrocorticografici provenienti da elettrodi intracranici impiantati a fine terapeutico nel cervello di pazienti affetti da disturbi epilettici, mentre questi volontari prestavano ascolto a 6 differenti categorie di voci e, per confronto di controllo, a suoni classificati come “non vocali”, ovvero frequenze acustiche provviste di alcuni tratti comuni con i suoni della voce umana ma scientificamente differenti nei connotati percettivi.

L’esame dei tracciati registrati ha subito fatto rilevare che alcune sub-regioni del lobo temporale mostravano preferenze per distinti stimoli vocali. A tali circoscritti territori di corteccia è stata attribuita la denominazione di “chiazze vocali” (voice patches)[6].

Le analisi di latenza hanno suggerito una doppia organizzazione gerarchica delle chiazze o tasselli vocali della corteccia del lobo temporale. I ricercatori hanno poi accertato che le aree circoscritte di sensibilità alla voce erano funzionalmente connesse, sia quando il soggetto era impegnato nel compito sperimentale, sia quando il suo cervello era in apparente stato di riposo.

Un’altra osservazione rilevante, derivata dallo studio dei tracciati elettrocorticografici, è che le aree motorie di sinistra erano co-attivate e correlate con le chiazze vocali del lobo temporale durante il compito di ascolto di suoni.

L’insieme dei dati rilevati, per il cui dettaglio si rinvia alla lettura integrale del testo del lavoro originale, rivela un’organizzazione in reti corticali gerarchiche nel cervello umano per l’elaborazione della voce dei propri simili.

Fin qui l’articolo in cui si propone l’identificazione da parte di Yang Zhang e colleghi della base dell’elaborazione delle informazioni contenute nella voce, ora passiamo ai due approdi tecnologici le cui molteplici applicazioni, soprattutto di carattere medico, possono facilmente essere intuite.

Lingli Cheng e colleghi presentano una coclea artificiale basata su un modello di filtri realizzato in precedenza e configurato con memristors, in cui un filtro emula un canale. Per dimostrare l’efficacia di questa coclea per applicazioni sistemiche, i ricercatori l’hanno impiegata per estrarre gli elementi-segnale del discorso e combinare l’estrazione con una rete neurale artificiale convoluzionale per il riconoscimento del Free Spoken Digit Dataset. La precisione del riconoscimento raggiungeva il 92% con 64 canali[7].

(Cheng L. et al., A bioinspired configurable cochlea based on memristors. Frontiers in Neuroscience – Epub ahead of print doi: 10.3389/fnins.2022.982850.eCollection, 2022).

La provenienza degli autori è prevalentemente la seguente: Key Laboratory of Microelectronic Devices and Integrated Technology, Institute of Microelectronics, Chinese Academy of Sciences, Beijing (China); Frontiers Institute of Chip and System, Fudan University, Shanghai (China); School of Integrated Circuits, University of Chinese Academy of Sciences, Beijing (China).

La sensibilità di questa nuova coclea artificiale realizzata da Lingli Cheng e colleghi è tale da accrescere di molto la capacità di riconoscimento delle voci da parte di robot neuromorfici e di conferire a questi automi abilità di reazione prossime a quelle umane. Ed è proprio sulla realizzazione di un robot di servizio basato sul riconoscimento delle emozioni delle persone che interagiscono con lui, che è centrato il lavoro di Dongxu Yang.

Un robot può migliorare la propria capacità di comprendere gli stati affettivo-emozionali delle persone con le quali interagisce se gli si aggiungono funzioni di riconoscimento delle emozioni nel discorso udito, ossia nella parola umana, oltre che sistemi di monitoraggio dell’ambiente. I robot possono offrire servizi più umanizzati adattandosi alle emozioni umane, con il risultato di ottenere un’interazione uomo/macchina più cordiale, confortevole – per usare le parole dell’autore dello studio – o, semplicemente, più soddisfacente.

(Dongxu Yang, Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring. Journal Environmental Public Health – Epub ahead of print doi: 10.1115/2022/3517995.eCollection, 2022).

La provenienza dell’autore è la seguente: Department of Product Design, School of Art and Design, Henan University of Urban Construction, Pingdingshan (Cina); Department of Industrial Design, Graduate School, Keimyung University, Daegu (Repubblica di Corea).

Al fine di consentire al robot di ottenere una prestazione di interazione computer-essere umano fluida, appropriata ed efficiente, l’autore dello studio ha definito un modello di “sentiment analysis” e un sistema di dialogo a dominio aperto adattabile per service robots. In tal modo avviene un’analisi delle emozioni esperite dagli “oggetti” mentre questi conversano. Secondo i risultati del test, il metodo di classificazione usato in questo studio risulta più accurato sul dataset del modello convenzionale, e il valore finale ottenuto indica una maggiore abilità nell’identificazione di uno stato emozionale. L’uso di tutti i campioni di voci come contenuto di input della rete era in grado di eliminare la confusione tra emozioni neutre ed emozioni qualitativamente specificate, amplificando la precisione nell’analisi del sentimento enormemente rispetto ai metodi finora adottati.

In conclusione, i tratti, gli indici e i caratteri che mutano nella voce durante la pronuncia di parole e discorsi per effetto di differenti stati emozionali, costituiscono finora gli elementi più affidabili per consentire a manufatti di intelligenza artificiale di andare oltre la comprensione del contenuto semantico e logico di un messaggio e percepire aspetti qualitativi e accenti dell’affettività umana.

L’autore della nota ringrazia la dottoressa Isabella Floriani per la correzione della bozza e invita alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del sito (utilizzare il motore interno nella pagina “CERCA”).

Lorenzo L. Borgia

BM&L-29 ottobre 2022

www.brainmindlife.org

________________________________________________________________________________

La Società Nazionale di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience, è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data 16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica e culturale non-profit.

[1] Note e Notizie 22-01-22 Reti corticali di tasselli vocali per riconoscere identità ed emozioni delle voci.

[2] Giuseppe Perrella, Riconoscimento di identità e stato affettivo-emozionale dalla voce – relazione al seminario su Effetti della percezione acustica e della musica sul cervello, p. 1, BM&L-Italia, Firenze 2012.

[3] Il riferimento è a vecchi esperimenti che si conducevano escludendo il riconoscimento vocale di genitori, fratelli ed altri parenti conviventi che si adottava

[4] Zhang Y., et al., Hierarchical cortical networks of “voice patches” for processing voices in human brain. Proceedings of the National Academy of Sciences USA 118 (52): e2113887118, December 28, 2021. Per gli istituti di provenienza degli autori si veda Note e Notizie 22-01-22 Reti corticali di tasselli vocali per riconoscere identità ed emozioni delle voci.

[5] Il fatto è notorio, ma è opportuno ricordarne la menzione e il commento di Nietzsche, che lo ha reso nuovamente attuale a partire dal XIX secolo (Friedrich Nietzsche, Nascita della Tragedia, p. 77, Adelphi, Milano 2000).

[6] Si è preferita questa traduzione (tra i più comuni significati di patch: toppa, pezza e chiazza) perché adottata in altri casi da altri autori italiani. Il nostro presidente preferisce una traduzione più libera, ma che forse rende meglio in italiano il concetto di “parte circoscritta” che compone un insieme, ossia tassello o tessera di mosaico.

[7] Compatibile con il tradizionale metodo basato sul mel-frequency cepstrum, per il quale si ricorda: nell’elaborazione del suono il cepstrum (il risultato della trasformata di Fourier applicata allo spettro in decibel di un segnale) a frequenza mel è una rappresentazione dello spettro di potenza a breve termine di un suono, basato su una trasformata del coseno lineare di uno spettro di potenza logaritmica su una scala di frequenza mel non lineare.